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Технология построения интеллектуальной 
системы распознавания речи 


Предложена информационная технология для системы распознавания речи с большим словарем на 
основе алгоритма сегментно-слогового синтеза траектории параметров. В основу технологии положены 
модели обучения и распознавания, использующие быстросходящиеся алгоритмы поиска. 


Введение 


Создание компьютерных интерфейсов с речевым вводом/выводом информации 
требует решения проблемы построения системы распознавания речи (СРР) с большим 
словарем, для чего необходимо: определить структуры объектов распознавания и 
операции, необходимые для интеллектуального решения проблемы; разработать 
быстросходящиеся стратегии для эффективного поиска потенциальных решений, кото- 
рые могут быть сгенерированы этими структурами и операциями с учетом допол- 
нительной информации (эвристик) об исследуемой проблемной области [1-10]. 

Существующие технологии построения СРР с большим словарем используют 
подход, при котором предполагается, что в предъявленном речевом сигнале (РС) 
последовательность сегментов рассматривается как совокупность независимых 
событий, которым в соответствие ставятся независимые речевые единицы (РЕ) [3-6]. 
Однако такой подход не учитывает зависимости между параметрами смежных сег- 
ментов. Необходимо разработать информационную технологию, которая оперирует 
с непрерывными траекториями параметров и позволяет аппроксимировать любую 
реализацию РС в терминах РЕ как функцию времени. В качестве РЕ, которые могут 
использоваться в процессе синтеза (композиции) слов или предложений, удовлет- 
воряют требованию максимальной полноты покрытия множества слов и учитывают 
зависимости между сегментами, могут быть выбраны слоги [7], [11], [12]. 


Постановка задачи 


Разработать информационную технологию построения СРР с большим слова- 
рем на основе алгоритмов реализации сегментно-слогового синтеза траекторий 
параметров и ее программную реализацию. 


Основная часть 


Разработка информационной технологии требует решения следующих важных 
задач, которые вытекают из перечисленных актуальных проблем. 

1. Создание оптимальных словарей РЕ: выбор способа хранения информатив- 
ных параметров РЕ словаря. 

2. Реализация автоматической сегментации РС. 
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3. Реализация эффективных алгоритмов распознавания на основе сегментно- 
слогового синтеза последовательности параметров для предъявленного РС. 

В соответствии с иерархическими принципами построения СРР [11], резуль- 
татами экспериментальных исследований [13], [14], [15] и с учетом рекомендаций к 
проектированию и разработке информационной технологии [16], в основу решения 
поставленной задачи положим две модели: модель обучения и модель распознавания. 


1. Модель обучения 


Общая схема модели обучения данной информационной технологии пред- 
ставлена на рис. | и состоит из следующих процедур. Рассмотрим более детально 
основные процедуры модели обучения. 


Вычисление Удаление 


параметров пауз Формирование 


конце РС 


Рисунок 1 — Функционально-структурная схема модели обучения СРР 


1. Ввод речевого сигнала с микрофона или открытие \’ау-файла с необходимой 
записью речевого сообщения. 

2. Первичная обработка РС. 

Первичная обработка РС заключается в вычислении информативных 
параметров РС (формировании траектории параметров) и удалении пауз в начале и 
конце речевого высказывания. 

Процедура формирования ТП реализации РС: на каждом 1-м интервале 
анализа РС вычисляется вектор признаков (набор информативных параметров) 
х =, хр,...ху,...хт}, далее формируется траектория параметров (ТП) 


анализируемого РС, таким образом Х = {х1, хо, ...,Х;»..., Хр} , 


где р — число интервалов анализа РС; и — размерность вектора признаков. 
Для представления ТП Х исследуемого РС в данной информационной 
технологии выбраны [11], [13]: 
— спектрально-временное представление (СВП) ХА(<, #); 
— спектрально-полосное представление (СШТ) ХЕ([, Е) в9 частотных полосах. 

СВП и СПП выбраны из следующих соображений: проведенные в [13] 
исследования по распознаванию РС, параметры которых представлены СВП и СПП, 
по критериям быстродействия и надежности показали, что увеличение быстродейс- 
твия распознавания в случае использования СШТ в среднем в 9 раз приводит к 
увеличению ошибки распознавания на 1,6 % по сравнению с использованием СВП. 
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Таким образом, по надежности распознавания оба метода представления ТП прак- 
тически сравнимы и могут совместно использоваться как иерархия распознавания: 
СПП для предварительного распознавания и выделения списка кандидатов на 
распознавание, а затем СВП для принятия окончательного решения. 

Процедура удаления пауз в начале и конце речевого высказывания. 
В качестве критериев нахождения границ сегментов, содержащих паузы в начале и 
конце высказывания, используются значения динамически меняющихся порогов 
нормированных энергий в двух полосах: 86 — 3010 Гц (НЭ); 3956 -— 8084 Гц (ВЭ). Для 
пауз характерны минимальные значения энергий на всем частотном диапазоне: 
ВЭ<ВЭ пи , НЭ<НЭ юж › где ВЭ ши ‚, НЭпиа е [0,03, 0,06]. 

3. Автоматическая сегментация РС. 

Сегментация РС выполняется независимо для СВП и СПП по методу 
верификации временной последовательности параметров, при этом уточняются 
границы сегментов-фонем [11]. 

4. Формирование словарей для речевых единиц. 

Для формирования словаря РЕ выполняется автоматическое деление 
сегментированной речевой последовательности параметров на акустические слоги- 
эталоны (двух-, трех-, четырехсегментные слоги) с соответствующей маркировкой 
лингвистической информации (название РЕ, транскрипция). ТП слогов-эталонов и 
вспомогательная информация распределяются в словари в соответствии с форматом 
хранения данных. Алгоритм автоматической декомпозиции РС на слоги-эталоны 


приведен на рис. 2. 
ЗТгапзкг, Со! Зедт 


Е = ГЕМ(ЗТгапзКг) 


Нет 


9 = СОРУ(ЗТгапзКк, К, ]) 


РУЗН(ХА, ХЕ, СгапЗедтеп, 517) 


Рисунок 2 — Алгоритм автоматической декомпозиции РС на слоги-эталоны 
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Информация о речевой единице Эк (А=1+-М№ $) в словаре представлена в 
следующем виде: 
<Номер РЕ>_<Имя РЕ>_<Транскрииция РЕ>_ 
<Количество временных отсчетов> _<Количество сегментов> _ 
<Адреса границ сегментов> _ 
<Групповая принадлежность сегментов>. 


Для создания СРР, которая работает в реальном времени, возникает необ- 
ходимость создания оптимальных словарей РЕ с точки зрения объема занимаемой 
памяти и быстродействия их обработки. Следовательно, необходимо получить для 
каждого способа представления ТП модель описания с помощью аналитических 
функций, согласно которой можно восстановить исходную ТП с минимальной 
погрешностью. 

Сплайн-описание СПП речевых единиц словаря. После сглаживания ТП в 
полосах на каждом временном участке, который соответствует сегменту-фонеме, 
последовательности параметров СПП УЕ([,{) в каждой частотной полосе имеют 


простую форму, которую можно описать полиномами низких порядков (и < 3) [11]. 
Таким образом, для каждой А-й РЕ словаря может быть построена следующая 
модель сплайн-описания сегментированной ТП УЁЕ([,{), которая с достаточной 


точностью аппроксимирует последовательности параметров в каждой частотной 
полосе / (1(=1-9) 

УВ 50 ТЗ 

УЕ, 5] ыы 


УЕ=` = 
УЕрь р (2 


у, ера 
Ем в мс 517 5М5б› 
для каждого сегмента находятся параметры полинома 3-го порядка 
рт 1 3: 2 1 1 
УЕ = 91-5; +6 1-11-85) + @- арт, (2) 
где =1+ № с (№ с — количество сегментов в ТИ слога-эталона); 50, 51, ..-.5Мс — 


границы сегментов внутри слога-эталона УЁ(/[, 1). 


Для нахождения неизвестных параметров сплайн-описания решается задача 
минимизации среднеквадратического приближения с условиями в точках сегмен- 
тации, которые обеспечивают требуемую гладкость склеивания ТП сегментов в 
каждой частотной полосе /[ (точки сегментации являются узлами сплайна) 


2 №6 | 1 и к [2 
УГ = У У УЕ; —7Е; 1 —шш, (3) 
= 1=5 1 
где 5; (1=1+М№с ) — границы сегментации, М№5с - количество сегментов для А-йЙ 
РЕ словаря; У а исходные траектории параметров слогов-эталонов УЁ([, #), И 
траектории параметров слогов-эталонов, восстановленные согласно модели (1), (2). 
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Описание СВП речевых единиц словаря в классе колоколообразных 
& 
функций. Для построения аналитического описания СВИ 75 (©, 1) элементов 
словаря используется колоколообразная функция модифицированный локон Аньези, 
которая обладает следующими свойствами [17]: 

1) функция гладкая непрерывная и дифференцируемая во всей области 
определения, имеет максимум на заданной координате и асимптотически при- 
ближается к плоскости области определения в любом направлении от максимума; 

2) достаточно универсальная функция, форму которой можно варьировать в 
широких пределах с помощью изменения ее параметров а, Ь, с и имеет вид 

3 
а 
(==. (4) 
с“ +(х-Б) 


По алгоритму, предложенному в работе [17], для элементов словаря 5Ёу‚ ТП 
УА(@х,) которых представлены в некоторой частотно-временной области ©: 
[(20, @м | [Ю, #\| (@ь, и — дискретно заданные частота и время, А =1...М, [=1...М), 
вычисляются параметры колоколообразных функций (7), { Хао, }}, которые 
обладают вышеперечисленными свойствами 1), 2), причем: 


— функция Ир) (1=1....) описывает временные свойства компонент речевого 


сигнала, определена в диапазоне 21 Е [, 1 м]: 


— функция 2@( (ох) (1=1...Г ) описывает частотные свойства компонент речевого 


сигнала, определена в диапазоне @ Е [оо, Ом |. 


Аналитическое описание УА" (ок, 11) СВП элемента словаря в некоторой точке 
области определения © вычисляется как суперпозиция [, произведений колоколо- 
образных функций И), 247) (ох) (Е =1...М, [=1..М№М, #=1...[,). 
3 3 

С КО. Ко 

245) (®%)-2 ( )= У 5 ‘5 . 
= я ф-т} 40+ -90} 


Таким образом, с учетом моделей аналитического описания ТП речевых 
единиц структура оптимального словаря может быть представлена на рис. 3. 


о ы 
Инфо 
"овса оииешвирыснаИ5 
СО СПП 
сени 


ОКФ СВП 
ыы Е 


Ме 


УА” (бу, и)= (5) 


= 


Рисунок 3 — Структура словаря речевых единиц 5Г.х 


Инфо - лингвистическая информация о РЕ ЗГ.; (название РЕ, транскрипция) 
+ вспомогательная информация о РЕ 5Г.; (количество временных отсчетов, 


количество сегментов, границы сегментов, групповая принадлежность сегментов 
Тон-Шум-Пауза). 
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Двух- и трехсимвольные РЕ (слоги) $Е.2%, ЗЁЕзх < $, которым соответ- 


ствуют двух-, трех- и четырехсегментные ТП ({У$Т2К },{УЗТЭК },{ УЗ }) пред- 
ставлены в виде: 

СО СПП - параметров моделей сплайн-описания СШГ; 

ОКФ СВП - параметров моделей описания СВП в классе колоколообразных 


функций. 


Анализ элементов словаря и вычисление эвристических оценок. 


Наиболее значимые характеристики сегментно-слогового представления рече- 
вой последовательности: 


— вложенность РЕ (слогов) Год ЕЗЁзд, Год Е ЭГ дк. Значение оценки вложенности 
й, рассчитывается с учетом количества совпадений/несовпадений элементов линг- 
вистической информации на соответствующих позициях и их порядка следования, 
0=й, (п) <1; 

— наличие определенной структуры групповых признаков сегментов (Т — «Тон»; 
Ш - «Шум»; П - «Пауза»). Значение оценки Й»›(п) рассчитывается на основе анали- 


за количества сочетаний групповых признаков сегментов Т-Ш-П, 0 < А» (п) <1; 


— величина расстояния между ТП слогов, содержащих различные сочетания груп- 
повых признаков. Оценка расстояния Йу(пи) рассчитывается для возможных сочета- 


ний сегментов, относящихся к разным групповым признакам, например, Т-Т, Ш-Т, Т-П. 

На основе рассчитанных эвристических оценок формируется структура груп- 
пировки элементов в словарях, благодаря чему сокращается время на поиск подхо- 
дящего элемента при распознавании. 


2. Модель распознавания 


Сформулируем задачу построения модели распознавания на основе сегментно- 
слогового синтеза ТП согласно [11], [14], [15] таким образом. 
Пусть задан словарь {ЗЁк }, состоящий из М слогов. Для каждого слога заданы 


эталонные последовательности параметров { Ук }. Каждый слог ЗС к сегментирован 
на и, сегментов-фонем $4 (К=1+М, 1=1+1%). 
Пусть задана входная последовательность параметров Х, которая сегмен- 


тирована на т, сегментов-фонем 5С р ‚ объединяемых в М групп-слогов (сочетания 


двух, трех или четырех сегментов) $1 (р=1+М, 1=1+тр). 


Необходимо разработать быстросходящийся алгоритм для нахождения наилуч- 
шего соответствия последовательности параметров предъявленной реализации Х 
эталонным последовательностям параметров словаря { Ук }, минимизируя величину 


а=У шт (51% # к } (6) 
р 


где $1, ЭГк содержат сегменты Ор: 56 соответственно; # — операция 


сопоставления. 
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Такая постановка задачи распознавания данной информационной технологии 
приводит к следующей схеме, которая представлена на рис. 4. Рассмотрим основные 
процедуры модели распознавания. 


Первичная Эвристический . 
(Символьный 


алгоритм сегментно- 
обработка ритмсетментно аналог РС 


слогового синтеза ТП 


Словарь 


Рисунок 4 — Функционально-структурная схема модели распознавания 


Предъявленная реализация РС (с микрофона или из \ау-файла) подвергается 
процедурам первичной обработки и сегментации, которые используются в модели 
обучения. Сегментированная ТП ХЁ для речевого сигнала, поступающего на вход 
системы распознавания, рассматривается как совокупность двух-, трех- и четырех- 
сегментных слогов, для которой выполняется поиск решений-комбинаций для 
эталонной ТП (ЭТП) с помощью алгоритмов: поиск в ширину и в глубину с 
использованием эвристических оценок [11], [14], [15]. Для полученного списка ком- 
бинаций ЭТП принимается решение о выборе наилучшей по критерию (6). Для 
синтеза ЭТП выбирается соответствующее описание ТП слогов-эталонов. 


ЕЗ 
Сплайн-синтез ЭТИ для СПП. Синтез эталонной ТП ХЕ выполняется 
согласно следующей модели конкатенации ТП слогов-эталонов 


#, №<1<М, 
* ыы 
ХЕ (0 =4 У", М1 +1515 М, (7) 
Г › Мр_1+1<1< М, 


где к=1:А; А - количество слогов-эталонов у в ЭТИ ХЕ; у — ТИ соот- 
ветствующей РЕ словаря, восстановленная согласно модели (1), (2); №; — количество 
временных отсчетов ТП ^А-й ТП, НеЕП, М], 6 ЕП, №], ..., ЖЕ Му], ..., 
(р Е[1, Мр]. Границы слогов внутри текущей комбинации траекторий параметров 
для ЭТП определяются таким образом: 
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№ =1; № = М; № =М +М№5; № =М + М> + №; ...; № = М +М) +...+ М№р. 


Параметры моделей описания траекторий параметров РЕ, составляющих 
текущую комбинацию ЭТП, уточняются при условии минимизации ошибки в 
каждой частотной полосе [: 


Е ВА ыы 5. #0 | 
У! 5 [5 | У | о (8) 


Синтез ЭТП в классе колоколообразных функций для СВП. ТП 7-й РЕ 


внутри текущей комбинации ЭТП определена в прямоугольной области ШУ: 
[о%, ем хо, Я и восстановлена в виде суперпозиции произведения колоко- 


лообразных функций Ис(и), Року) (@у) (1=1...6,, К=1..М, [=1...№). Для 


<“ * <“ 
текущей комбинации ЭТП ХА (46,2) ‚ состоящей из К РЕ словаря, область определения 
с учетом объединения частотно-временных диапазонов каждой РЕ в комбинации — ДО: 


(оо, ом |х[ю, м] где у = +1у, +... 
* 
Описание СВП для эталонной ТП ХА (0,1) в точке (@р, и) области опре- 


& 
деления Д вычисляется как суперпозиция К гладких функций УЛ», (@) 1) (т =1...Ю), 


которые являются аналитическим описанием СВП речевых единиц словаря, таким 
образом 


о о В (шт 
ХА (,, "= > Аи, "= Хх Ю подо) ко (9) 


т=1 \ 1=1 


* 
где А - количество слогов в ЭТИ ХА («,г), [,„ - количество параметров коло- 


т 


колообразных функций 2; ((), 245) (ок) (=1..„) для соответствующего т -го 


слога комбинации для ЭТП ХА" (©, 1). 

Композиция символьного аналога РС. После завершения работы алгоритма 
поиска ЭТП, которая наилучшим образом соответствует последовательности пара- 
метров предъявленного РС, выполняется композиция ее символьного аналога 


Й = Лсотрозе (ЗЁ1› р 


3. Программная реализация информационной технологии 


Представленная в статье информационная технология была реализована в виде 
компьютерной системы распознавания речи 5Реасй. Основной средой, в которой 
реализованы алгоритмы данной информационной технологии, является Вопапа 
РерН! 5. Структурно система 5Реасй реализована в модулях, которые перечислены в 
табл. 1. Интерфейс программы представлен на рис. 5. 
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Таблица 1 — Перечень основных модулей системы 5Реасй 


Название модуля Назначение 


\УМАУВеаа\тце 


ввод РС с микрофона или Уау-файла 


ЗресиАпа|$ 


спектральный анализ РС, вычисление параметров 


Ещег$ 


фильтрация и сглаживание данных 


Зершещаноп 


сегментация РС, определение типов сегментов 


ОпйТеас,РтосЕ ити оуаг формирование словарей РЕ 


АрргохитаНнопРгос 


построение сплайн-описания СПП 


ГоКопу Апе71 


колоколообразных функций 


построение описания СВП в классе 


Кесосп 


процедуры ДП, добавление элементов в словарь 


Ро КУ шши 


алгоритмы ВЕЗ 


РозКУСТаб ши 


алгоритмы РЕЗ 


Еуг$Нс$ 


эвристический алгоритм 


МоаО)гам3ЗАОтарь 


графика 


0 2000 4 000 5000 8000 


г Г 


Ввод речевого сигнала 
Ввод с микрофона 
Открыть \УАУ-файл 


Обучение 


.Тресорм гой 


от 
Е 


Добавить новый эталон 


| 


== 
—_ 


Закрыть словарь 


Распознавание Г’ 


10 000 12 000 14 000 15 000 18 000 


Обработка. Выбор ТТ для построения 


Спектр | Функция сегментации ] 12 егоСтоз$ ] 
1 


Еыё1 [500 $] рыё2 [10006 $] м8 $] С 


0 24 6 8 1012 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 
Фильтр 


№ исходная ТП (9) 


|! сглаженная ТП (9) 


Г модель 2 ТП (9) 


Г модель 3 ТП (9) 


Г модель сплайнсописание 3 ТП (9) 


рослушать запись 


> Ш Е 


ФН 990 Сс Сем Ст 


7! \_Ода\Ргодесе\соссо\боипа\СНТЕ МАУ 


УТ Анализ элементов словаря 


Границы сегментов: 0 11 24 36 45 56 70 


51. 3 3Е6 | 31.4 ЗЕ Эвристические оценки 


мым у-с о-в 


о ри ы [А у [ан 0-с-е 


[0.00000 2464041 —33,20408 
2464041 000000 — 17.00179 
3330408 (17,0017 000000 

2559360  17,49253 1337848 
20,2182 1764752 2619665 
27,48614 156314 23962 
3157939 1817951 2283076 


24,95290 5,99929 17,72784 
26,08994 24,54176  29,18040 
35,21836 18,91048  (17,32286 
[35,09283 27,79408 2978910 
27,47116 19,7534] 27,10623 


25,5360 202182 31,5799 249590 2608994 3521836 3509283 
17,9253 17,6475 Пра, 5990 ЗА5476 1891048 2779408 
1337848 2619665 | 22; 1772784 291800 1732296 2978910 
000000 18.6689 2549804 217406 138495 петзо7т озыми 3147589 
1866869 000000 15355 (2318793 1538674 18,6500 25285 22.9624 
258984 153551 0100000 2020608 1797035 2552895 2810342 285625 
217496 2328793 2020608 000000 209263 овз2м0 26724 7.49835 
1334895 1538674 1797035 12092633 000000 19/1339 22235480 30,5610 
1972307 18.6500 255095 пвлт4 1911 000000 304546 33.3812 
Зи 252085 2810 ОХА 12035480 30356 0.00000 298264 1 
31,4759 2229624 282565 14985 З05600 З3432 2952624 0400000 
216498 1263035 ад7а 2510984 178542 1925435 3408088 3057309 


> 


'Анапиз вложенности 'Анапиз сочетаний ГП 


` Анализ расстояний Оценка КНУ 
[152  Вычненить | || [2,021 р п Вычислить | Гузевь || | Вычислиь| | М8 


Рисунок 5 — Интерфейс приложения 5Реасй 
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На рис. ба, 6, в приведен пример синтеза ЭТП для предъявленной реализации 
РС «один» согласно представленной модели распознавания. 


3130 тар№бсь =: ПАСлозары107-03:04}айо_Злму ВЫ + зо старье :.Олловарицо7 03 Ода _ мам вм 


Редцетоу Гедцетоу 


педиепсу 


в) 


Рисунок 6 — Описание СВП в классе колоколообразных функций: 
а) слог «ад»; 6) слог «ин»; в) конкатенация слогов «ад» и «ин» в ЭТП 


Результаты тестирования разработанной системы Зреесй подтверждают эф- 
фективность предложенной информационной технологии. 


Выводы 


В данной статье предложена новая информационная технология для построе- 
НИЯ интеллектуальной системы распознавания речи, которая обеспечивает комплекс- 
НЫЙ подход, учитывающий взаимосвязи между иерархией представлений о речевом 
сигнале. В дальнейшем предполагается усовершенствование эвристического алго- 
ритма поиска с целью повышения быстродействия распознавания. 
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Технолопя побудови 1нтелектуально! системи розшзнавання мовлення 

У статт розглянуто 1нформащйну технологю для системи розшзнавання мовлення з великим 
словником на основ! сегментно-складового синтезу траекторй параметрв. В основу технологи 
покладен! модел! навчання та розшзнавання, як! використовують швидкозб1жн! алгоритми пошуку. 
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